اندازه گیری گسترش در داده ها: چرا و چگونه؟

در دنیای علوم داده ، برخی از مهمترین تصمیمات در مورد تجزیه و تحلیل ها هنگام انجام تجزیه و تحلیل داده های اکتشافی در مجموعه داده ها گرفته می شود. در حالی که درک مفاهیم میانگین ، میانگین و حالت به تحلیلگران کمک می کنند تا با ساختار اساسی مجموعه داده ها شروع کنند ، اینها فقط اقدامات گرایش اصلی هستند و نمای کلی از کل مجموعه داده ها را ارائه نمی دهند. دامنه درک ، دامنه بین کوارتیل (IQR) ، انحراف استاندارد و واریانس به ما کمک می کند تا درک کنیم که چگونه داده های ما از یکدیگر پخش می شوند.

این مقاله به:

مبانی متداول ترین اقدامات گسترش در هنگام تجزیه و تحلیل داده ها ،
نحوه محاسبه این موارد با استفاده از پایتون

وقتی در مورد اقدامات گسترش بحث می کنیم ، مقادیر عددی را در نظر می گیریم که با تا چه حد امتیازات ما از یکدیگر ارتباط دارد.

اقدامات مشترک گسترش شامل موارد زیر است:

دامنه
دامنه بین کوارتیل (IQR)
انحراف معیار
واریانس

درک گسترش داده های ما از نظر بصری ساده ترین است و رایج ترین بصری برای داده های کمی هیستوگرام است. برای درک نحوه ساخت هیستوگرام ، در نظر بگیرید که مجموعه داده های زیر را داریم.

اول ، ما باید داده های خود را سطحی کنیم. این کاملاً به سازنده هیستوگرام است که چگونه Binning رخ می دهد. در این مورد خاص ، می تواند سطل های ما را به عنوان 11-14 ، 15-18 ، 19-22 و 23-26 انتخاب کند. از آنجا که 4 مقدار اول بین 11 تا 14 است ، آنها به سطل اول می روند. به طور مشابه ، 3 ارزش بین 15 تا 18 نهفته است ، بنابراین آنها به سطل دوم و غیره می روند.

تعداد مقادیر موجود در هر سطل ، ارتفاع هر نوار هیستوگرام را تعیین کنید. تغییر سطل ها بر این اساس بر تصویری تأثیر می گذارد. در بیشتر موارد ، نرم افزار/ابزارها سطل های مناسب را برای ما انتخاب می کنند. هیستوگرام ما ، در این حالت ، شبیه به شکل زیر خواهد بود.

ما می توانیم با استفاده از پایتون و همچنین با استفاده از کتابخانه Matplotlib ، هیستوگرام فوق را ایجاد کنیم:

دو هیستوگرام را در زیر در نظر بگیرید ، با مقایسه تعداد اتومبیل هایی که در روزهای هفته و آخر هفته دیدم ، با عبور از یک کافه. اگر از نزدیک متوجه شوید ، بلندترین سطل ها برای هر دو روز هفته و آخر هفته با 13 اتومبیل همراه است. این بدان معنی است که تعداد اتومبیل هایی که انتظار دارم ببینم در روزهای هفته و آخر هفته یکسان است. همچنین ، اقدامات مرکز ، در این حالت ، بسیار مشابه خواهد بود - هر دو دارای میانگین ، متوسط و شیوه حدود 13 اتومبیل هستند. بنابراین ، در مورد این دو توزیع چه تفاوتی دارد؟آنها در هیستوگرام متفاوت از یکدیگر به نظر می رسند!

تفاوت این است که چگونه داده ها برای هر گروه پخش می شود. می بینید که تعداد اتومبیل هایی که در روزهای هفته می بینم از 10 تا 16 متغیر است ، در حالی که در آخر هفته ، از 6 تا 18 متغیر است.

یکی از متداول ترین راه های اندازه گیری گسترش داده های ما ، محاسبه خلاصه پنج شماره است که شامل موارد زیر است:

حداقل: کمترین تعداد در مجموعه داده.
Q1 (کوارتیل اول): مقدار به گونه ای که 25 ٪ از داده ها در زیر قرار می گیرند.
Q2 (کوارتیل دوم): مقدار به گونه ای که 50 ٪ از داده ها در زیر قرار می گیرند ، یعنی متوسط
Q3 (کوارتیل سوم): مقدار به گونه ای که 75 ٪ از داده ها در زیر قرار می گیرند.
حداکثر: بزرگترین مقدار در مجموعه داده.

خلاصه 5 عدد مقادیر ما را برای محاسبه دامنه و دامنه بین کوارتیل به ما می دهد.

مجموعه داده های زیر را در نظر بگیرید:

برای محاسبه خلاصه پنج شماره ، اولین کاری که باید انجام دهیم سفارش مقادیر خود است که به ما می دهد

پس از سفارش ، حداقل و حداکثر مقادیر قابل شناسایی هستند. همانطور که می دانیم ، میانگین ارزش متوسط در مجموعه داده های ما است. ما همچنین این Q2 یا کوارتیل دوم را می نامیم زیرا 50 ٪ از داده ها زیر این مقدار قرار می گیرند. دو مقدار باقیمانده باقی مانده برای محاسبه Q1 و Q3 هستند. این مقادیر را می توان به عنوان واسطه داده های هر دو طرف Q2 تصور کرد. بنابراین در این حالت ، همانطور که میانه 3 است ، میانگین مقادیر سمت چپ Q2 مقدار Q1 (2) را به ما می دهد و میانگین مقادیر در سمت راست Q2 مقدار Q3 را به ما می دهد (8)واد

اگر مجموعه داده دارای تعداد یکنواخت مقادیر باشد ، مقدار Q2 (میانه) میانگین مقادیر میانه 2 خواهد بود. مقدار Q1 میانگین تمام مقادیر سمت چپ Q2 محاسبه شده خواهد بود و مقدار Q3 میانگین تمام مقادیر در سمت راست Q2 خواهد بود.

پس از محاسبه پنج مقادیر خلاصه شماره ، پیدا کردن دامنه و دامنه interquartile آسان است.

دامنه = حداکثر - حداقل = 10-1 = 9 دامنه بین قشر = Q3 - Q1 = 8–2 = 6

محاسبات فوق می تواند با استفاده از پایتون همانطور که در شکل زیر انجام شده است:

متداول ترین روشی که متخصصان اندازه گیری یک مجموعه داده را با یک مقدار واحد اندازه گیری می کنند ، با انحراف استاندارد یا واریانس است. انحراف استاندارد به طور متوسط به ما می گوید که هر نقطه داده از میانگین نقاط تا چه حد است.

تصور کنید که می خواستیم بدانیم دانش آموزان تا چه اندازه از مدرسه خود واقع شده اند. یک دانش آموز ممکن است 15 کیلومتر ، 35 کیلومتری دیگر ، تنها 1 کیلومتر دیگر و دیگری ممکن است 60 کیلومتری مدرسه زندگی کند. ما می توانیم همه این مسافت ها را با هم جمع کنیم تا نشان دهیم که میانگین فاصله (میانگین) بین دانش آموزان و مدرسه 27. 75 کیلومتر است.

حال، اگر بخواهیم بدانیم که فاصله تا مدرسه از دانش‌آموزی به دانش‌آموز دیگر چقدر متفاوت است، می‌توانیم از خلاصه پنج عدد به عنوان توضیح استفاده کنیم. با این حال، اگر بخواهیم فقط یک عدد در مورد اسپرد صحبت کنیم، انحراف استاندارد را انتخاب می‌کنیم. بنابراین در این مورد، دانش آموز 1 حدود 13 کیلومتر از میانگین به مدرسه نزدیکتر است، در حالی که دانش آموز 2 حدود 8 کیلومتر از مدرسه دورتر از میانگین است. انحراف معیار نشان می دهد که این دانش آموزان به طور متوسط چقدر از فاصله متوسط قرار دارند. این به ما یک ایده مفهومی از آنچه می‌خواهیم با استفاده از انحراف معیار اندازه‌گیری کنیم، می‌دهد.

برای درک نحوه محاسبه انحراف معیار، اجازه دهید مجموعه داده زیر را در نظر بگیریم. فقط 4 عنصر دارد:

مرحله 1: میانگین را محاسبه کنید

میانگین = (10 + 14 + 10 + 6) / 4 = 40/4 = 10

مرحله 2: فاصله هر مشاهده را از میانگین محاسبه شده محاسبه کنید

مرحله 3: دو مورد از مشاهدات برابر با میانگین هستند، بنابراین فاصله آنها 0 است. برای دو مشاهده دیگر، یکی از مقادیر 4 بزرگتر (14) و دیگری 4 کوچکتر است (6). حال اگر بخواهیم میانگین این فواصل را پیدا کنیم، مقدار 0 را بدست می آوریم که معیار خوبی برای اندازه گیری اسپرد نیست. این می تواند منجر به سردرگمی شود، زیرا صفر می تواند نشان دهد که همه مقادیر یکسان هستند یا هیچ گسترشی وجود ندارد.

بنابراین، در عوض، همه مقادیر را با مجذور کردن همه آنها مثبت می کنیم.

مرحله 4: میانگین این مقادیر میانگین مجذور فاصله هر مشاهده از میانگین را به ما می دهد که به عنوان واریانس نیز شناخته می شود.

مرحله 5: با این حال، این میانگینی از مقادیر است که ما فقط آنها را مجذور کردیم تا در وهله اول مقادیر مثبت را بدست آوریم. بنابراین، برای بدست آوردن انحراف استاندارد، جذر این مقدار پایانی را می گیریم.

:: بازدید از این مطلب : 48

امتیاز مطلب : 0

تعداد امتیازدهندگان : 0

مجموع امتیاز : 0